音声情報処理 04
国際⾳声記号(International Phonetic Alphabet)
国際⾳声学会(International Phonetic Association)が設定
⾆の位置と唇のすぼめに応じて論理的に定義
横軸:調⾳位置
縦軸:調⾳様式
⼦⾳分類で近い場所は,類似した⾳
対象となる⾔語⾳
⼤括弧[]で表現
⽇本語では,[a]も[α]も「あ」
⾔語ごとの認知特性によった最⼩単位
1つの⾳素に対する複数の単⾳:異⾳
上記の「あ」の例
⾔語のどの⾳かが識別できれば良い
⾔語⾮依存:IPAによって厳密に定義
記号化と⾳声の認識
⾳声の認識
「⼊⼒⾳声→単語列」の変換
⾳声から⾔語的情報を抽出
システムだけでなく,⼈間の知覚も同様の仕組み
⾳声認識の難しさ
⾳響的難しさ
⾔語的難しさ
⾳声認識の難しさ
⾳響的難しさ:同⼀⽂字列に複数の⾳響信号が対応
⾳素環境による各⾳素の⾳響的変動
前後の⾳素で各⾳素の⾳響は変わる
さんば、
発声スタイルによる⾳響的変動
読み上げ,会話,感情表現
話者の違いによる⾳響的変動
雑⾳などの環境の違いによる⾳響的変動
会話時には怠けた発⾳になりがち
⽇本語の⺟⾳も英語の⺟⾳に近づいていく
未知語への対処
⾳声認識は,単語辞書に基づいて⾳声を認識
辞書中の単語を使って⽂字列を構成:
辞書にない言葉は認識できない
会話特有の冗⻑な⾔葉への対処
発話者や環境によって各ノイズの頻度や分布は異なる
⾔語的な妥当性を基にして認識を補助
⾳声認識の難しさが⽣み出すエンタメ
空⽿アワー
テレビ朝⽇系列「タモリ倶楽部」内の⼈気コーナー
⽇本語以外で歌われているが,⽇本語のように聴こえる歌詞
参照する辞書が異なることによって発⽣する聞き間違い
仕組み
⾳楽中で歌唱されることで⾳響的変動が⼤きくなる
例
聖飢魔II:不思議な第三惑星
岡崎体育:Natural lips
分析
⾳素記号列間のレーベンシュタイン距離で計測
モンデグリーン(mondegreen)
同⾔語内でのフレーズの聞き間違い
正しい辞書を参照していても発⽣する聞き間違い